Extraktion relationaler Daten aus Texten
نویسندگان
چکیده
Daten für netzwerkanalytische Projekte können explizit oder implizit in natürlichsprachlichen, unoder halbstrukturierten Texten enthalten sein. In dieser Situation ermöglichen Verfahren zur Relationsextraktion die Gewinnung oder Anreicherung von Netzwerkdaten. Die folgenden Beispiele verdeutlichen Einsatzgebiete für diese Familie von Methoden: Analysten aus Wirtschaft und Verwaltung entnehmen Berichten von und über Organisationen Angaben zu deren Zusammensetzung, Effizienz und Entwicklung (Corman et al. 2002; Krackhardt 1987). Kognitionsund Sozialwissenschaftler untersuchen auf der Grundlage von Interviews, wer welche Themen anspricht und wie in Verbindung setzt (Carley und Palmquist 1991; Collins und Loftus 1975). Journalisten und Analysten durchsuchen Meldungen und Archive nach Beteiligten, Gegenstand, Grund, Verlauf, Ort, Zeit, und Zusammenhängen von Ereignissen (Gerner et al. 1994; van Cuilenburg et al. 1986). Marktforscher analysieren Kundenbewertungen um herauszufinden, welche Marken und Produkte welche Empfindungen hinterlassen (Wiebe 2000). Internetforscher verfolgen die akteursbezogene Diffusion von Themen im Internet (Adar und Adamic 2005; Kleinberg 2003). Nutzer senden Suchmaschinen Anfragen, deren Beantwortung Informationen von mehr als einer Webseite bedarf (Berners-Lee et al. 2001; Brin 1999). All diesen Aufgaben ist gemeinsam, dass sie gelöst werden können, indem die jeweils relevanten Informationen (Knoten) und deren Verbindungen (Kanten) aus Texten herausgefunden, wiedergegeben und netzwerkanalytisch ausgewertet werden (McCallum 2005). In diesem Kapitel erläutern wir, unter welchen Bedingungen das Extrahieren relationaler Daten aus Texten sinnvoll ist, welche Verfahren dafür zur Verfügung stehen, und zeigen Grenzen und bislang ungelöste Probleme der Methodik auf.
منابع مشابه
Automatische Extraktion von Fachterminologie aus kunst-historischen Volltexten
Mit Hilfe eines algorithmisch arbeitenden Verfahrens können fachterminologische Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Inhaltlicher Schwerpunkt stellt die Einbindung von Funktionswörtern des deutschen Sprachgebrauchs in den Extraktionsalgorithmus dar. Als Datengrundlage dieser Arbeit dienten kunsthistorische Lexikonartikel des Reallexikons zur ...
متن کاملAufbau eines Agrardatenzentrums in der Bundesanstalt für Landwirtschaft und Ernährung (BLE)
Der Datawarehouse-Prozess dient zur Konsolidierung der Datenhaltungssysteme. Die Daten werden von verschiedenen Datenquellen bereitgestellt und im ETL-Prozess (Extraktion, Transformation, Laden) in das Datawarehouse geladen. Die Erstellung eines Datawarehouse basiert auf zwei Grundideen: zum einen der Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen und zum...
متن کاملmArachna: Entwicklung von Wissensrepräsentationsmechanismen für die Mathematik
Die automatische Extraktion von Wissen aus natürlichsprachlichen Texten ist eine große technische Herausforderung, die – betrachtet man die Gesamtheit aller möglichen schriftlichen Quellen – heute noch als weitgehend ungelöst gelten muss. Wissenschaftliche und insbesondere mathematische Texte zeichnen sich jedoch durch einen höheren Grad der Strukturiertheit aus, und sie verfolgen stets das Zie...
متن کاملVerbesserte Visualisierung der Koronararterien in MSCT-Daten mit direkter Vergleichbarkeit zur Angiographie
Kurzfassung. In diesem Beitrag stellen wir neue, automatisierte Verfahren zur Visualisierung der Koronararterien einerseits und für eine direkte Vergleichbarkeit mit konventionellen Angiogrammen andererseits vor. Unser Ansatz umfasst Methoden für die automatische Extraktion des Herzens aus kontrastverstärkten CT-Daten, sowie für die Maskierung grosser kontrastmittelgefüllter Kavitäten des Herze...
متن کاملOntologie-basiertes Web Mining
Zusammenfassung: Die Erkennung und Extraktion relevanter Daten im Internet wird zunehmend durch den rapiden Zuwachs an Dokumenten erschwert. Bestehende Ansätze, denen aktuelle Suchmaschinen in der Regel folgen, begegnen den anfallenden Datenmengen mit immer neuer Rechenleistung. Diese Vorgehensweise wird sich jedoch nicht beliebig fortsetzen lassen. In dieser Arbeit stellen wir ein fokussiertes...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010